谷歌的Astra、Veo和Gemini升級戰：AI技術的進步

Updated:2024-11-28 11:12:11

這是谷歌對OpenAI的回應。

一個通用的AI，一個可以真正日常使用的AI，如果現在不是這樣的話，召開新聞發布會會感到尷尬。

在5月15日的清晨，年度“科技界春晚”谷歌I/O開發者大會正式開始。在110分鐘的主題演講中，人工智能被提及了多少次？谷歌已經統計過了：

是的，AI每分鐘都在被討論。

生成式AI的競爭最近達到了新高潮，此次I/O大會的內容自然圍繞著人工智能。

“一年前在這個舞台上，我們首次分享了我們對原生多模態大型模型Gemini的計劃。這標誌著新一代I/O的開始，”谷歌CEO桑達爾·皮查伊說。“今天，我們希望每個人都能受益於Gemini的技術。這些突破性的功能將滲透到搜索、圖像、生產力工具、Android系統等多個方面。”

目前，1.5 Pro和1.5 Flash已經公開預覽，並在谷歌AI工作室和Vertex AI中提供1百萬token的上下文窗口。現在，1.5 Pro還為使用API的開發者和通過候補名單的谷歌雲客戶提供2百萬token的上下文窗口。

此外，Gemini Nano已經從純文本輸入擴展到圖像輸入。今年晚些時候，谷歌將推出多模態Gemini Nano，從Pixel開始。這意味著移動用戶不僅可以處理文本輸入，還可以理解更多上下文信息，例如視覺、聲音和口語。

Gemini家族迎來了一位新成員：Gemini 1.5 Flash

新版本1.5 Flash已經針對速度和效率進行了優化。

新一代開源大型模型Gemma 2

今天，谷歌還發布了一系列對開源大型模型Gemma的更新——Gemma 2來了。

如介紹所述，Gemma 2採用了新的架構，旨在實現突破性的性能和效率，新的開源模型參數為27B。

在長視頻方面，Veo可以生成60秒甚至更長的視頻。它可以通過單個提示或提供一系列共同講述故事的提示來實現。這對於視頻生成模型在電影和電視製作中的應用至關重要。

Veo基於谷歌在視覺內容生成方面的工作，包括生成查詢網絡（GQN）、DVD-GAN、圖像到視頻、Phenaki、WALT、VideoPoet、Lumiere等。

Updated:2024-11-29 22:39:41

Updated:2024-11-29 21:00:36